10. 标准差和方差简介
其他离散程度度量
五数概括法
在前面的部分,我们看了如何计算与
五数概括法
(
最小值
、
Q_1
、
Q_2
、
Q_3
、
最大值
)关联的值,以及与这些值关联的离散程度度量(**
值域
和
四分位差**)。
对于 非对称的 数据集,五数概括法和相应的箱形图是了解数据离散程度的很好方法。 尽管我在大多数时候更喜欢用直方图,但箱形图能更容易地比较两组或多组数据。 你将在本课结束时的练习中看到这一点。
方差和标准差
另外两个常用的 离散程度度量 为 方差 和 标准差 。乍看之下,方差和标准差会有点吓人。如果你不理解下面的方程,不用慌!在这部分,我先概述一下下一部分将包含的内容,但总的来说包括以下内容:
- 理解均值和方差是如何计算的。
- 凭直觉判断为什么均值和方差的计算有利于捕获数据的离散程度。
- 可能会使用这些值的字段。
- 我们为何使用特定数据集的标准差或方差,而非与五数概括法相关的值。
计算
我们使用以下方式计算方差:
\frac{1}{n}\sum\limits_{i=1}^n(x_i - \bar{x})^2
方差是 每个观察值与均值之差的平方值的平均数 。标准差是方差的平方根。因此,标准差的计算如下所示:
\sqrt{\frac{1}{n}\sum\limits_{i=1}^n(x_i - \bar{x})^2}
标准差是与我们的其余数据具有相同单位的度量,方差的单位是原始数据的平方。
再次说明, 此部分旨在作为后面许多部分内容的先导 。如果哪些信息在此第一遍不够清楚,别担心。你会在一个示例中使用薪资数据,演练这些计算并培养直觉判断能力。之后,我会接着通过一些上下文说明这些计算的重要性,以及你会在哪里看到它们!